“Gold data”(也常写作 gold-standard data)指质量最高、经过严格人工标注或核验、可作为评测/对照基准的数据。在机器学习、自然语言处理、信息抽取、医学研究等领域常用来检验模型或系统的准确性。也可泛指“可信的参考数据”。(不同语境下也会接近 ground truth 的含义。)
/ɡoʊld ˈdeɪtə/
/ɡoʊld ˈdɑːtə/
The team used gold data to evaluate the new classifier.
团队使用金标准数据来评估新的分类器。
Before training the model, we verified the gold data with two independent annotators to reduce bias and ensure consistency.
在训练模型之前,我们让两位独立标注者核验金标准数据,以减少偏差并确保一致性。
“Gold”在英语里常用作比喻,表示“最优、最可靠”的标准;这一用法与“gold standard(黄金标准)”的概念有关,最初源自金融与度量意义上的“以黄金作为可靠基准”。后来在科研与工程领域被借用,用来指代最可信的标注/参考数据,因此形成“gold data / gold-standard data”的说法。
该术语更常见于技术写作与学术论文而非传统文学作品;以下为经常出现“gold (standard) data / gold standard”的代表性技术文献类型与著作(多用于指“人工标注的基准数据”):